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基于 改进 SlowFast 模 型 的 设施 黄瓜 农事 行为 识别 方法 


fi X: [目的 /意义 ] 农事 行为 活动 识别 对 设施 蔬 荣 4 


瓜 叶 片 和 设施 遮挡 导致 识别 准确 率 不 高 的 问题 ， 


E 菜 生产 精准 化 调控 有 着 
农事 操作 的 时 间 、 操 作 过 程 是 否 合理 来 减少 因 农 事 行为 不 当 导 致 产量 下 降 。 为 了 解决 农事 行为 识别 方法 中 由 于 黄 
提出 一 种 名 为 SlowFast-SMC-ECA (SlowFast-Spatio-Temporal Ex- 
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要 意义 ， 在 一 定 程度 上 可 以 通过 查看 


citation, Channel Excitation, Motion Excitation—Efficient Channel Attention) 的 农事 活动 行为 识别 算法 。[ 方 法 ] 该 算 
法 主要 基于 SlowFast 模 型 ， 通 过 改进 Fast Pathway 和 Slow Pathway 中 的 网 络 结构 来 提高 对 于 农事 活动 中 手 部 动作 特 
征 和 关键 特征 的 提取 能 力 。 在 Fast Pathway 中 ,， 引 入 多 路 径 激 励 残 差 网 络 的 概念 ， 通 过 在 信道 之 间 插 入 卷 积 操作 来 


兽 强 它们 在 时 域 上 的 相互 关联 性 ， 从 而 更 好 地 捕捉 快速 运动 信息 的 细微 时 间 变 化 。 在 Slow Pathway 中， 将 传统 的 


Residual Block 替换 为 ECA-Res 结构 ， 以 提高 对 通道 信息 的 


别 中 表现 出 良好 的 性 能 ， 


有 获 能 力 。 这 两 项 改进 有 效 地 加 强 了 通道 之 间 的 联系 ， 


提升 了 特征 之 间 的 语义 信息 传递 ， 进 而 显著 提升 了 农事 行为 识别 的 准确 率 。 此 外 ， 为 了 解决 数据 集中 类 别 不 均衡 
的 问题 ， 设 计 了 平衡 损失 函数 (Smoothing Loss)， 通 过 引入 正则 化 系数 ,平衡 损 失 函 数 可 以 有 效 地 处 理 数 据 集 中 
的 类 别 不 均衡 情况 ， 提 高 模型 在 各 个 类 别 上 的 表现 。[ 结 果 和 讨论 ] 改进 的 SlowFast-SMC-ECA 模型 在 农事 行为 识 
各 类 行为 的 平均 识别 精度 达到 80.47%， 相 较 于 原始 的 SlowFast 模 型 有 约 3.5% 的 提升 。 
[结论 ] 本 研究 在 农事 行为 识别 中 展现 出 良好 的 性 能 。 这 对 农业 生产 的 智能 化 管理 和 决策 具有 重要 意义 。 
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黄瓜 在 中 国 各 地 普遍 栽培 ， 因 含有 丰富 的 人 体 
所 需 的 各 种 营养 物质 ， 对 人 体 健康 非常 有 益 而 深 受 
消费 者 的 喜欢 "”。 在 黄瓜 栽培 过 程 中 会 存在 大 量 
的 农事 活动 行为 ， 如 淡水 、 吊 草 、 剪 枝 等 。 这 些 农 
事 操作 得 合理 与 否 直 接 影响 黄瓜 的 产量 和 品质 ， 进 
而 影响 整个 生产 的 产 出 效益 。 同 时 ， 农 事 操作 的 时 
间 、 操 作 过 程 、 投 入 农 资 量 、 投 入 精准 度 等 基础 数 
据 也 是 实现 黄瓜 生产 精准 化 调控 管理 的 依据 ， 因 此 
如 何 快速 准确 地 记录 农事 操作 行为 就 显得 尤为 
重要 。 
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传统 的 农事 活动 行为 记录 主要 依靠 人 工 进行 。 
记录 过 程 存 在 时 间 延 迟 、 准 确 度 不 高 、 信 息 遗 漏 等 
问题 。 这 些 会 给 黄瓜 的 生产 管理 造成 一 定 的 影响 。 
随 着 图 像 识 别 与 计算 机 视觉 技术 的 飞速 发 展 ， 基 于 
机 器 视觉 技术 ,通过 对 农事 活动 行为 视频 的 自动 提 
取 和 识别 实现 农事 活动 记录 成 为 一 种 可 行 的 技术 
方案 。 

行为 识别 方法 可 以 大 致 分 为 两 类 : 一 类 是 基于 
传统 方法 ， 需 要 手工 提取 和 设计 特征 以 进行 识别 ; 
另 一 类 则 借助 深度 学 习 技 术 ， 通 过 神经 网 络 自动 学 
习 数 据 中 的 特征 ， 从 而 对 一 些 简 单 的 行为 (如 挥 
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手 、 聊 天 ) 进行 识别 中 。 手 工 特征 提取 方法 主要 
是 通过 人 工 方 法 提取 视频 中 的 运动 信息 ， 然 后 使 
FA 4r 28328 Hn xc TIS) i$ (Support Vector Machine, 
SVM) ", K tiie TEE 7, DUMP paps de ^U 等 ， 
对 动作 进行 检测 分 类 "s CTER T 3 MA 
的 外 观 特征 。 这 些 特 征 不 仅 简 单 易 懂 ， 而 且 具 有 出 
色 的 鲁 棒 性 。 这 种 方法 已 经 成 为 基于 视频 识别 行为 
的 优选 ， 并 且 在 多 个 领域 得 到 了 广泛 的 应 用 。 手 工 
特征 的 可 行 性 和 广泛 性 使 其 成 为 一 个 强大 的 工具 ， 
用 于 捕捉 和 分 析 视 频 中 的 运动 、 形 状 、 颜 色 、 纹 理 
等 关键 信息 ， 从 而 实现 对 行为 的 准确 识别 和 分 析 。 
此 外 ， 一 些 学 者 认为 视频 图 像 携 华 着 前 后 帧 的 运动 
信息 ,通过 提取 这 些 信息 ， 可 以 计算 出 光 流 ， 进 而 
获取 图 像 中 物体 运动 的 光 流 数据 ， 从 而 用 于 描述 运 
动 状态 。 如 ，Wang 等 采用 了 一 种 密集 轨迹 法 
(Dense Trajectories, DT) 的 方法 ， 通 过 在 视频 帧 中 
密集 提取 轨迹 点 ， 并 捕捉 这 些 轨迹 点 随时 间 的 变 
化 ， 用 于 行为 识别 和 动作 分 析 。 之 后 ，Wang 和 
Schmid "在 DT 的 算法 上 进行 了 改进 ， 提 出 了 改进 
的 密集 轨迹 法 (Improved Dense Trajectories, IDT) , 
通过 更 精细 的 轨迹 采样 和 增强 的 特征 提取 技巧 ， 提 
高 了 在 视频 中 捕获 动作 信息 的 效率 和 准确 性 ， 使 其 
在 行为 识别 和 动作 分 析 中 更 具 苋 争 力 。 

近年 来 ,深度 学 习 领 域 取 得 了 迅猛 发 展 ， 为 行 
为 识别 研究 提供 了 绒 新 的 视角 和 方法 。 传 统 的 手工 
特征 提取 方法 通常 伴随 着 内 存 需 求 较 高 的 问题 ， 并 
受到 特征 单一 性 的 限制 ， 从 而 在 扩展 性 方面 存在 一 
定 的 挑战 。 这 些 深度 学 习 方 法 不 仅 能 够 高 效 处 理 大 
规模 数据 ， 还 能 够 自动 从 数据 中 学 习 丰 富 的 特征 表 
示 ， 因 此 在 视频 行为 识别 等 领域 表现 出 巨大 的 潜 
力 。 主 流 的 基于 深度 学 习 的 视频 理解 算法 包括 双流 
卷 积 神经 网 络 (Two-Stream Convolutional Neural 
Networks, Two-Stream CNN)、 人 体 骨 架 识 别 、 三 维 
卷 积 神经 网 络 (3D CNN), ， 以 及 视觉 Transformer. 
这 些 网 络 结构 在 捕捉 视频 中 的 行为 特征 和 动作 信息 
方面 发 挥 着 重要 的 作用 。2014 年 ，Simonyan 和 
Zisserman "提出 了 一 种 创新 的 方法 ， 即 双流 卷 积 
神经 网 络 。 这 个 网 络 采用 了 两 个 分 文 : 一 个 分 文 专 
门 用 于 提取 时 间 流 特征 ; 男 一 个 分 支 则 专注 于 提取 
空间 流 特 征 。 在 网 络 的 后 端 ， 它 将 这 两 个 流 的 特征 
融合 在 一 起 ， 以 实现 更 加 全 面 和 高 效 的 信息 提取 和 
表示 。 这 一 方法 为 视频 行为 识别 等 任务 带 来 了 重要 
的 突破 ， 使 得 模型 能 够 更 好 地 理解 时 间 和 空间 信 
息 ， 从 而 提高 了 识别 性 能 。 在 此 基础 上 进行 改进 的 


网 络 有 TSN (Temporal Segment Networks) |"! 网 络 
和 I3D ( Inflated 3D ConvNet) | 网 络 。3D 卷 积 神 
经 网 络 通 过 加 入 时 间 维 度 来 代替 光 流 ， 可 以 实现 端 
到 端的 识别 。Tran 等 ”“ 使 用 3D 卷 积 构建 了 C3D 
(Convolutional Three Dimensional) 模型 ， 它 将 VG- 
GNet (Visual Geometry Group network) P26 '' WY 
d ARK HH 3X3 AY 2D BARD RA 3X 3X3 B 3D d$ 
H. Za th HAY R3D (Residual 3D Convolutional 
Network) ''* 网 络 和 SlowFast 网 络 等 都 基于 3D 
卷 积 神经 网 络 。 此 外 ,在 长 短 时 记忆 网 络 (Long 
Short-Term Memory, LSTM) 的 进展 中 ，Donahue 
等 ”引入 了 长 期 循环 卷 积 神经 网 络 (Long-term re- 
current Convolutional Networks, LRCN) 的 概念 。 
LRCN 结 合 了 2D 卷 积 神经 网 络 (2D CNN) 来 提取 
帧 级 特征 ， 并 随后 利用 LSTM 来 建 模 多 个 视频 帧 之 
间 的 时 间 关 系 。 这 一 方法 在 视频 行为 识别 领域 具有 
重要 的 应 用 潜力 。 

上 述 研究 方法 在 区 分 设施 黄瓜 的 生长 过 程 中 的 
复杂 农事 行为 时 ， 面 临 着 一 系列 挑战 ， 包 括 株距 较 
近 、 叶 片 相互 遮挡 、 农 事 操作 多 样 、 动 作 环 节 复 杂 
以 及 人 员 操 作 不 规范 等 问题 。 这 些 问 题 增 加 了 设施 
黄瓜 的 农事 行为 识别 的 难度 。 为 了 解决 这 些 挑战 ， 
本 研究 基于 SlowFast 行 为 识别 算法 进行 了 改进 。 具 
体 地 ， 在 Fast Pathway 中 将 ACTION (Spatio-tem- 
poral, Channel and Motion Excitation) |"! 注意 力 机 制 
与 残 差 块 相 结 合 ， 形 成 SMC-Res Block, VAST 9B 4H 
邻 两 帧 之 间 农 事 操作 的 连续 性 特征 提取 能 力 。 考 虑 
黄瓜 生产 中 叶片 遮挡 和 大 棚 环 境 的 复杂 性 ， 在 
Slow Pathway 中 引入 了 注意 力 机 制 ECANet (Effi- 
cient Channel Attention Network) ， 以 增强 通道 之 间 
的 相互 依赖 关系 ， 从 而 提高 Slow Pathway 网 络 的 特 
征 表示 能 力 。 此 外 ， 为 解决 农事 行为 数据 集中 的 不 
均衡 问题 ， 本 研究 设计 了 平衡 损失 函数 (Smooth- 
ing Loss, SLoss)。 使 用 这 一 损失 函数 有 助 于 平衡 各 
个 农事 行为 类 别 在 数据 集中 的 样本 分 布 ， 从 而 提高 
模型 对 于 每 个 类 别 的 识别 性 能 。 

1 农事 行为 数据 集 构 建 

鉴于 当前 缺乏 适用 于 种 植 黄瓜 的 农事 行为 监控 
的 公开 可 用 的 数据 集 ， 本 研究 选用 北京 国家 精准 农 
业 实 验 示 范 基地 内 的 黄瓜 温室 为 研究 案例 ， 并 自行 
构建 数据 集 ， 用 于 识别 和 评价 种 植 黄瓜 的 农事 行 
为 。 为 了 确保 能 够 捕捉 到 农业 操作 人 员 的 动作 ， 研 
究 采 用 以 下 布置 方式 : 温室 的 长 宽 比 为 A:B 
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(A>B， 其 中 A 为 长 15 m，B 为 宽 3 m), 行距 为 
100 cm， 株 距 为 40 cm, 41822, Æ HEX 
80 cm。 根 据 这 一 布局 ， 摄像 涉 的 安装 点 位 如 图 1 
所 示 ， 摄 像 头 被 设置 在 长 边 上 ， 每 两 芍 黄 瓜 苗 之 
间 ， 以 确保 清晰 拍摄 农业 操作 人 员 的 操作 。 考 虑 监 
控 视频 的 主要 目的 是 识别 农业 人 员 与 黄瓜 的 互动 行 
为 ,摄像头 的 安装 高 度 为 2.2 m， 略 高 于 人 的 头顶 
高 度 。 此 外 ,摄像头 角度 倾斜 15 一 30"， 以 确保 能 
够 清晰 捕 提 操作 人 员 的 行为 。 为 增加 角度 的 多 样 
性 ， 还 使 用 手机 对 农事 行为 进行 辅助 拍摄 。 


ETT x 黄瓜 
图 1 农事 行为 识别 研究 摄像 头 布置 点 位 


Fig. 1 The arrangement of camera positions for agricultural 


activity recognition research 


实验 数据 的 采集 时 间 为 2023 年 2 月 28 日 一 4 月 
25 日 。 此 过 程 为 黄瓜 从 移 栽 到 采摘 的 全 部 过 程 。 折 
摄 的 设备 为 海 康 威 视 的 董 石 云 家 用 摄像 头 ， 型 号 为 
DS-IPC-B12V2-1H8， 焦 距 为 6mm， 清晰 度 为 5 MP, 
拍摄 的 时 间 为 10 : 00—11 : 30 8I 14 : 00—15 : 00, 
每 段 视频 拍摄 的 时 长 大 约 为 1 min。 本 研究 共 采 集 
了 移 栽 、 吧 水、 吊 葛 、 整 枝 、 采 摘 共 5 个 行为 197 
段 视频 。 图 2 所 示 为 采集 到 的 部 分 农事 行为 的 视频 
截 帧 。 拍 摄 视频 的 标识 方法 为 AVA 数据 集 格式 o 
视频 数据 经 过 切 分 与 第 选 ， 农 事 行为 数据 集 一 共有 
707 段 视频 ， 其 中 500 段 视频 用 作 训 练 集 ; 40 段 视 
频 用 作 验 证 集 ; 67 段 视频 用 作 测 试 集 。 

在 建立 原始 数据 集 后 ， 对 数据 进行 抽 帧 和 标 
注 。 为 了 确保 数据 的 均衡 性 ， 每 个 行为 的 数据 量 需 
相当 ， 并 且 不 能 截断 任何 动作 。 为 实现 这 一 目标 ， 
采取 了 以 下 措施 : 1) 删除 视频 中 没有 目标 人 员 出 
现 的 片段 。2) 将 视频 中 包含 目标 前 后 多 个 动作 的 
片段 进行 拆 分 。 最 终 的 数据 集 组 成 如 表 1 所 示 。 

2 模型 构建 

本 研究 提出 的 SlowFast-SMC-ECA 模型 基于 
SlowFast 模 型 。 其 结构 如 图 3 所 示 ， 主 要 包括 数据 
层 、 卷 积 层 、 残 差 层 及 特征 融合 层 。 模 型 的 整体 处 
理 流程 : 数据 层 通 过 2 个 不 同 的 步 长 值得 到 不 同 帧 


VA 
a. 采 摘 行 为 


b. $ E4128 
图 2 HARK REIT ALIA 
Fig. 2 Video cut-off frames of agronomic behaviour of 
facility cucumbers 
表 1 设施 黄瓜 农事 行为 数据 集 的 构成 
Table 1 The composition of the greenhouse cucumber farming 


behavior dataset 


行为 类 别 视频 数 / 个 标签 数量 /个 
TER 97 7432 
浇 水 146 10 207 
ms 162 11 106 
整枝 124 9 978 
采摘 178 12 173 


的 数据 将 其 馈送 到 不 同 的 通道 中 ， 在 进入 到 卷 积 层 
Ja, Slow Pathway 每 次 以 1 帧 进行 运算 ; Fast Path- 
way 提 取 5 帧 图 片 一 起 进行 运算 。 接 着 进入 3D 残 差 
网 络 Slow Pathway 和 Fast Pathway 分 别 用 ECA- 
Res 和 多 路 径 激励 残 差 网 络 进行 农事 活动 行为 中 运 
动 信息 和 空间 信息 的 提取 ， 最 后 进行 特征 融合 ， 得 
到 最 终 的 农事 活动 行为 的 结果 。 

2.1 多 路 径 激励 残 差 网 络 


f£ Fast Pathway 中 以 高 时 间 分 辨 率 捕获 运动 信 
息 , 但 是 基于 设施 黄瓜 的 农事 活动 行 复杂 多 变 ， 手 
部 动作 幅度 小 ， 一 些 农事 行为 相关 性 强 ， 原 始 残 差 
块 在 捕获 农事 活动 行为 运动 特征 时 会 丢失 大 量 信 
息 ， 造 成 误 检 现象 。 本 研究 利用 ACTION ”中 的 3 
个 互补 注意 力 机 制 ， 即 STE (Spatial-Temporal Ex- 
citation), CE (Channel Excitation), ME (Motion 
Excitation) ， 结 合 原始 的 残 差 块 ， 形 成 多 路 径 激励 
残 差 网 络 (Spatial-Temporal Excitation, Channel 
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Fast Pathway 


SMC-Res 


Slow Pathway 


[ae] = [e] 4 [2] 
Eva]= [J] 中 


Prediction 


sc] = E] de [e] 


图 3 SlowFast-SMC-ECA 网 络 结构 图 
Fig. 3 SlowFast-SMC-ECA network structure diagram 


Excitation, Motion Excitation Residual, SMC-Res, 
结构 如 图 4 所 示 ) 来 提高 对 农事 行为 视频 中 关键 特 
征 的 激发 ， 从 而 提升 农事 行为 识别 的 准确 性 。 本 研 
REH Conv 为 卷 积 数量 ; 为 内 核 大 小 ; 卷 积 滤波 
Tu BRE AE WR SE ARCU n X x X x HILF; BN (Batch 
Normalization) 为 批量 归 一 化 ，ReLu 为 激活 函数 。 
SMC-Res 块 包含 3 次 卷 积 和 一 个 残 差 边 , 在 每 一 组 
卷 积 以 及 残 差 连接 之 前 加 入 SMC 模 块 。 这 样 做 可 
以 在 不 同 维度 获取 多 类 型 的 时 空 模式 、 通 道 信息 及 
运动 信息 后 进行 卷 积 获取 更 加 细 粒 度 的 特征 ， 提 高 
农事 行为 识别 的 精度 。 


SMC | 
H SMC Module 
BN,Rel — 一 
Input 
Conv 3x Ex EF | 
* Shift | 
Conv bx 1x LAE BN.ReLu i - 
| i i 
ae = a "Es 
ma | c | | ME 
Conv 1x33] [ | 
BN.ReLu t $ F 
t —— 
| 
c NET | Output 
BN 
ReL 


图 4 SMC-Res 结构 
Fig. 4 SMC-Res structure 


STE 时 空 注 意 力 模 块 旨 在 捕获 适当 的 时 空 模 
式 ， 以 强化 视频 中 的 空间 和 时 间 关 系 ， 有 助 于 更 好 
地 理解 农事 活动 行为 中 的 一 些 动作 的 变化 ， 主 要 通 
过 生成 时 空 掩 码 来 产生 时 空 注意 力图 ， 以 提取 视频 
中 的 时 空 特征 。STE 网络 结构 如 图 5a 所 示 。 

HEXIA X e R"**7*c*#xw (NN 表示 批量 大 


小 ; TRARBM; C 表 示 通 道 数 ; 五 表示 高 度 ; W 
表示 宽度 ) 做 一 个 通道 平均 得 到 关于 通道 轴 的 全 局 
时 空 张 量 F e R"**”*!***W， 后 把 得 到 的 F 重 构 
为 新 的 时 空 张 量 F*e Rix7xaxw， 然 后 馈送 到 
3D 卷 积 核 K 中 ， 数 学 表达 如 公式 (1) 所 示 。 

F} =K X F? (1) 

然后 再 将 FEIN Fa ina A Sigmoid K 
数 进行 激活 得 到 掩 码 ， 如 公式 (2) 所 示 。 

M, = 6(F,) (2) 

式 中 : M 为 激活 掩 码 ; 6 为 Sigmoid KA fx 
后 得 到 农事 活动 行为 中 更 为 精细 的 时 空 信息 ， 如 公 
式 (3) 所 示 。 

Y, = X + XOM, (3) 

式 中 : 了 为 STE 模 块 的 最 终 输 出 。 

CE 注意 力 模块 用 于 提取 适当 的 通道 范围 特征 ， 
以 强调 网 络 中 不 同 通道 的 信息 。 这 有 助 于 捕捉 关键 
的 通道 信息 ， 从 而 提高 农事 行为 的 识别 能 力 。 它 类 
似 于 SE (Squeeze-and-Excitation Networks) 注意 力 
模块 小， 为 了 增强 农事 活动 行为 各 个 不 同 特征 在 
时 间 上 的 相互 依赖 程度 ，CE 模 块 在 两 个 全 连接 层 
之 间 引 入 了 一 个 一 维 卷 积 层 ， 以 捕捉 信道 特征 上 的 
时 间 信 息 。CE 模 块 的 结构 如 图 5b 所 示 。 对 于 给 定 
的 输入 对 © RYT OX Hx Ww 通过 平均 池 化 的 方法 来 获 
取 全 局 空间 信息 Ps s RYS, EREA 
式 (4) 所 示 。 


1 H W T 
F= aw DAL bd (4) 


XL F.H] — 74 = EB RK K ETT RAE F, 
如 公式 (5) 所 示 。 
F,=K, XF, (5) 


F ER EEA F eR T, 
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Y-Y,+Y,+/Y; (10) 
式 中 : 了 为 多 路 径 激励 残 差 网 络 的 最 


NT. AH 


lec 


© 
N, renv] 
e 


a. STE 


图 5 SMC 模块 组 成 
Fig. 3 Composition of SMC modules 


然后 用 核 大 小 为 3 的 一 维 卷 积 核 玉 与 书 - 相 乘 得 到 


E 
Fim E R oe IR JE E F inp F E F emp IS 
2D 卷 积 核 玉 , 相 乘 进行 解压 缩 ， 最 后 经 过 Sigmoid PK 


终 输出 。 

然后 对 生成 的 特征 信息 进行 卷 积 
操作 ， 得 到 最 终 的 运动 特征 信息 。 
2.2 ECA-Res 残 差 块 


在 设施 黄瓜 的 生产 环境 下 ， 黄 瓜 

在 开花 期 叶片 生长 迅速 ， 存 在 黄瓜 叶 
片 庶 挡 操作 人 员 的 手 部 动作 变化 的 问 
题 。 在 Slow Pathway 中 ， 如 操作 人 员 
的 手 部 轮廓 等 通道 信息 不 容易 被 捕捉 
到 。 为 提高 通道 信息 的 捕捉 能 力 ， TE 
ResNet 主干 网 络 的 基础 上 ， 在 残 差 块 
中 结合 ECA 注 意 力 ”。ECANet 注 意 
力 机 制 在 SENet 注 意 力 机 制 的 基础 上 实 
现 了 不 降 维 的 跨 通 道 交 互 策 略 ， 只 六 
及 T 了 少量 的 参数 ,不 仅 避 人 免 了 维度 特 
征 的 缩减 ， 还 能 增加 通道 之 间 的 信息 
交互 ， 在 保证 交互 的 前 提 下 精简 模型 。 

SlowFast 网 络 中 的 Slow Pathway 有 比 

Fast Pathway 更 多 的 通道 数量 来 学 习 通 

道 信息 。ECA 注意 力 机 制 可 以 完美 地 适用 于 Slow- 
Fast 网 络 中 的 Slow Pathway， 不 仪 减少 了 计算 量 ， 


数 得 到 农事 动作 的 掩 码 ， 如 公式 (6) 和 公式 (7) 
所 示 。 
M, = 0(F,,) (6) 
Y, = X + XOM, (7) 
式 中 : M, 为 CE 模块 的 掩 码 ; 了 ,为 最 终 输 出 。 
ME 注意 力 模块 专注 于 提取 运动 信息 ， 以 更 好 
地 聚焦 于 农事 活动 行为 中 操作 人 员 的 手 部 动作 的 变 
化 ， 如 图 $c 表 示 ， 通 过 相 邻 帧 之 间 的 变化 情况 来 建 
模 农 事 活 动 行为 的 运动 特征 ， 如 公式 (8) 所 示 。 
F,-KXF].t-L:,:.:]-F[:.5:.::.] (8) 
WP: K 为 3X3 的 二 维 卷 积 ; F, 通 过 K 对 前 后 
两 帧 的 操作 得 到 ， 即 将 输入 著 每 相 邻 两 帧 之 间 得 到 
的 差 值 在 时 间 维 度 上 进行 连接 。 再 对 得 到 的 特征 做 
平均 池 化 处 理 ， 然 后 通过 Sigmoid 函数 得 到 最 终 的 
输出 ， 如 公式 (9) 所 示 。 
Y,=X+XOM, (9) 
式 中 : M; 为 ME 模块 的 掩 码 ; 了 ,为 最 终 输出 。 
农事 行为 的 特征 信息 通过 STE、CE、ME 注意 
力 机 制 ， 将 生成 的 3 个 激发 特征 逐 元 素 相 加 ， 再 经 
过 多 路 径 激励 通道 ， 最 终结 果 如 公式 (10) 所 示 。 


— 


还 突出 了 通道 中 的 关键 信息 和 抑制 视频 中 背景 因素 
的 干扰 ， 其 结构 如 图 6 所 示 。 


图 6 ECA-Res 结构 
Fig. 6 ECA-Res structure 

ECA 注意 力 机 制 的 工作 原理 如 图 7 所 示 。 通 过 
卷 积 对 特征 图 进行 压缩 得 到 一 个 新 的 特征 图 x。x 的 
大 小 为 有 HX CX W。 将 经 过 全 局 平均 池 化 (Gol- 
bal Average Pooling, GAP) 转变 为 1 X 1 X CAI IA 
量 。 这 样 空间 信息 就 得 到 了 压缩 ， 然 后 采用 一 维 卷 
积 来 提取 通道 上 的 特征 ， 模 型 在 训练 的 过 程 中 ， 能 
够 自 适应 卷 积 核 的 大 小 ， 具 体 的 做 法 为 : 
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1) 在 全 局 平局 池 化 之 后 得 到 一 个 1 X 1 X C 
的 向 量 。 

2) 计算 自 适应 一 维 卷 积 核 的 大 小 如 公式 (11) 
所 示 。 


k=ọ(c)= BELLE (11) 
y y 
KH: y=2; b21; KIRK; c 为 通道 大 


小 。 该 自 适应 卷 积 核 表明 了 局 部 蜂 通 道 交 互 的 履 

3) 将 自 适应 卷 积 核 使 用 到 一 维 卷 积 中 ， 得 到 
各 通道 的 权重 ， 使 得 通道 数 较 大 的 层 可 以 更 多 地 进 
行 相 邻 通道 间 的 交互 。 


图 7 ECANet 网 络 结构 图 


Fig.7 ECANet network structure diagram 


2.3 损失 函数 


在 数据 采集 过 程 中 ， 由 于 黄瓜 生长 周期 中 不 同 
农事 行为 的 频率 差异 ， 某 些 行为 《如 移 栽 ) 在 整个 
生长 周期 中 仪 发 生 几 次 ， 而 其 他 行为 (如 浇 水 、 采 
摘 ) 则 有 较 高 的 发 生 频 紊 ， 这 导致 数据 集 存 在 明显 
的 类 别 不 均衡 问题 。 同 时 一 些 行为 (如 吊 蕊 和 采 
W) 在 表现 上 相似 。 所 以 原始 的 损失 函数 UU 在 对 
于 一 些小 样本 的 农事 行为 活动 时 ， 它 的 准确 率 得 不 
到 保证 。 为 解决 这 一 问题 ， 本 研究 设计 了 一 种 平衡 
损失 函数 (Smoothing Loss, SLoss)。 该 损失 函数 通 
过 引入 正则 化 系数 w 并 与 原始 损失 函数 相 乘 SE 
缓解 模型 在 训练 过 程 中 对 于 高 频 行为 的 过 拟 合 ， 同 
时 确保 对 于 低频 行为 的 充分 训练 。 正 则 化 系数 的 定 
义 如 公式 (12) 所 示 。 

a=S(l-x') (12) 

式 中 : S (一 般 设置 为 0.1、0.5、0.75。 本 研究 
设置 为 0.75) 用 来 平衡 类 别 的 超 参 数 ; x' 的 计算 如 
公式 (13) 所 示 。 

i Si 

x Xam (13) 

式 中 : fNSBISSANSEHOMBUEEASAT GS CAR 
事 行 为 类 别 数 。 因 此 ， 最 后 的 SLoss 如 公式 (14) 
所 示 。 


SLoss = a/Loss( p) = S(1 - y')Loss(p,) (14) 

式 中 : py Bodl ERIEK. 

在 多 分 类 任务 中 ， 经 过 Sigmoid 函数 进行 归 一 
化 处 理 后 得 到 最 终 的 结果 ， 如 公式 (15) 所 示 。 

SLoss( p,)-- Y... a, log [sigmoid ( p,)] 


c i 1 
= Lies OK N08 Tex Cp) 
=-X S -x)log (p,) 

3 实验 设计 与 结果 分 析 

3.1 实验 环境 


本 研究 的 实验 环境 为 Linux 5 的 操作 系统 ， 
CPU 为 Intel (R) Xeon (R) Platinum 8255C CPUG 
2.50 GHz, GPU X NVIDIA GeForce GTX 2080 Ti & 
卡 ， 深 度 学 习 的 框架 为 PyTorch 框 架 。 

在 模型 的 训练 过 程 中 ， 模 型 训练 的 Epoch 设置 
为 200， 批 量 大 小 设置 为 8， 初 始 的 学 习 率 为 0.001， 
权重 衰减 参数 设置 为 0.005。 网 络 中 的 模型 优化 采 
用 的 是 随机 梯度 下 降 算 法 (Stochastic Gradient De- 
scent, SGD ) 。 


3.2 实验 结果 与 分 析 


3.2.1 农事 活动 行为 识别 结果 

为 验证 本 研究 提出 的 改进 SlowFast 模 型 的 农事 
行为 识别 方法 对 移 栽 、 浇 水 、 吊 划 、 整 校 、 采 摘 5 
种 行为 识别 效果 的 优越 性 ， 将 SlowFast-SMC-ECA 
模型 与 原 模型 SlowFast 进 行 比 较 。 对 比 结果 如 表 2 
所 示 。 

表 2 SlowFast-SMC-ECA 模 型 不 同行 为 识别 精度 对 比 
Table 2 Comparison of accuracy in different behavior recogni- 
tion of SlowFast-SMC-ECA model 


] (15) 


行为 类 别 mAP@0.5/% 

SlowFast-SMC-ECA SlowFast 
TE 76.85 73.32 
浇 水 82.28 80.76 
m 78.23 75.32 
整 校 77.65 74.43 
采摘 86.61 85.96 
全 部 行为 80.47 77.87 


由 表 2 可 以 看 出 ,改进 后 方法 相 比 原始 的 
SlowFast 模 型 在 5 种 农事 行为 的 识别 准确 率 均 有 不 
同 幅度 的 提升 。 其 中 ， 提 升 较为 明显 的 是 移 栽 行 
为 ， 较 原 模型 提高 3.53%。 提 升 不 太 明 显 的 是 采摘 
行为 ， 仅 为 86.61%。 全 部 行为 识别 精度 的 平均 值 为 
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80.4790, ， 较 原 模 型 提高 2.6% 。 

在 本 研究 的 方法 中 ， 对 于 吊 昔 和 整枝 这 两 种 行 
为 的 识别 能 力 相对 较 低 ， 识 别 精度 仅 有 78.23% 和 
77.65%。 分 析 其 原因 是 这 两 种 行为 表现 比较 相似 ， 
模型 容易 产生 混淆 ， 但 是 相对 于 原 模型 的 75.32% 
和 74.43%， 识 别 精度 都 提高 大 约 3%。 可 见 本 研究 
的 方法 对 于 吊 划 和 整枝 这 两 种 易 混 消 行为 的 识别 能 
力也 有 显著 的 增强 。 对 于 移 栽 这 种 样本 量 比较 小 的 
行为 ， 它 的 mAP 值 能 够 提升 大 约 3.5%。 可 见 模型 


表 3 SlowFast-SMC-ECA 模 型 不 同位 置 残 差 块 的 实验 效果 图 
Table 3 Experimental results of different position residual blocks 
in SlowFast-SMC-ECA model 


不 同位 置 的 残 差 块 mAP@0.5/% 
SMC-Res1+ECA-Res1 76.93 
SMC-Res2+ECA-Res2 78.55 
SMC-Res3+ECA-Res3 80.03 
SMC-Res4+ECA-Res4 79.97 
SMC-Res5+ECA-Res5 TIAS 


对 于 小 样本 数目 的 类 别 有 一 个 较 好 的 优化 。 图 8 为 
SlowFast-SMC-ECA 模型 农事 行为 识别 的 结果 图 。 


TITIA 


a. BRITA 


is 
d. 整枝 行为 


e. 采摘 行为 
图 8 不 同 黄瓜 农事 行为 检测 视频 帧 结果 图 


Fig.8 Different cucumber farming activity detection frame results 


3.2.2 ”消融 实验 

为 了 验证 在 不 同 阶段 使 用 SMC-Res 和 ECA-Res 
残 差 网 络 的 效果 差异 ， 对 Resl、Res2、Res3、Res4 
和 Res5 这 5 个 阶段 进行 了 实验 。 在 每 个 阶段 ,分别 
用 SMC-Res 和 ECA-Res 替换 原来 的 残 差 网 络 ， 并 
在 第 1 阶段 完成 后 ， 不 将 其 恢复 为 原始 的 残 差 块 ， 
而 是 直接 基于 此 结果 将 第 2 阶段 的 原始 残 差 块 替换 
为 多 路 径 激励 残 差 网 络 和 ECA-Res。 随 后 的 阶段 也 
以 同样 的 操作 方式 将 原始 的 残 差 块 蔡 换 为 1 多 路 径 
激励 残 差 网 络 和 ECA-Res， 结 果 如 表 3 所 示 。 

实验 结果 表明 ， 将 Res2 和 Res3 这 两 个 残 差 网 
络 蔡 换 为 SMC-Res 和 ECA-Res 的 效果 较 好 。 这 是 
由 于 在 Res2 和 Res3 中 分 别 包含 3 个 SMC-Res 残 差 


块 和 4 个 ECA-Res。 它 的 网 络 输出 的 特征 图 有 更 多 
的 信息 和 强大 的 空间 相关 性 ， 在 这 里 进行 操作 可 以 
有 效 地 防止 过 拟 合 ， 同 时 网 络 可 以 更 好 地 提取 空间 
fik. fEResl, Res4, Res5 之 后 添加 几乎 没有 效 
果 。 前 者 是 因为 在 经 过 一 层 卷 积 过 后 视野 太 大 ， 提 
取 的 特征 不 够 充分 ， 将 原始 残 差 网 络 蔡 换 并 不 能 
效 地 提取 农事 行为 的 特征 信息 ; 后 者 是 因为 深层 的 
卷 积 神经 网 络 输出 的 特征 图 的 相关 性 较 弱 ， 再 次 执 
f1 SMC-Res 和 ECA-Res 操作 后 ， 会 丢失 过 多 的 农 
事 行 为 特征 信息 ， 不 利于 网 络 更 好 地 学 习 。 因 此 ， 
本 研究 只 将 Res2 和 Res3 蔡 换 为 SMC-Res fll ECA- 
Res 残 差 网 络 。 

同时 ， 为 验证 本 研究 提出 的 农事 行为 活动 识别 
方法 对 原 模型 改进 的 有 效 性 XJ SlowFast, Slow- 
Fast+SMC 、 SlowFast+ECA , SlowFast+SLoss , 
SlowFast+SMC+ECA 这 5 个 模型 ， 通 过 消融 实验 对 
识别 效果 进行 对 比 ， 进 一 步 验证 本 研究 模型 的 实验 
效果 的 性 能 ， 结 果 如 表 4 所 示 。 

表 4 农事 行为 识别 研究 消融 实验 效果 表 

Table 4 Dissolution experiment results of agricultural activity 


recognition research 


模型 mAP@0.5/% 
SlowFast 77.87 
SlowFast+SMC-Res 78.55 
SlowFast+ECA-Res 78.32 
SlowFast+SLoss 78.25 
SlowFast+SMC-Res+ECA-Res 80.18 
SlowFast-SMC-ECA 80.47 


根据 表 4 的 结果 ， 通 过 将 SlowFast 模 型 中 的 原 
ft Res 3X 22 Ht Ef. 7j SMC-Res fll ECA-Res 残 差 块 ， 
明显 提升 了 农事 行为 识别 效果 ， 达 到 80.18%， 相 较 
于 原 模 型 SlowFast 的 识别 精度 提高 了 约 2%。 值 得 
注意 的 是 ,平衡 损失 函数 对 整体 农事 行为 识别 效果 
的 提升 并 不 十 分 显著 ， 仅 为 0.38%。 然 而 ， 在 处 理 
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小 样本 的 行为 时 ， 平 衡 损失 函数 却 表现 出 较 大 的 提 
升 效果 。 综 合 而 言 ，SMC-Res、ECA-Res 的 引入 及 
对 损失 函数 的 改进 ， 有 效 提升 了 农事 行为 识别 的 准 
确 性 。 
3.23 对比 实验 

为 了 验证 本 研究 的 网 络 模型 性 能 ， 将 本 研究 的 
模型 与 其 他 行为 识别 模型 在 农事 行为 数据 集 上 进行 
实验 。 本 次 实验 的 网 络 模型 主要 有 C3D. DD, 
TSN、 双 流 卷 积 神经 网 络 Timesformer (Time- 
space Transformer)， 以 及 本 研究 的 网 络 模型 。 各 个 
模型 的 平均 识别 准确 率 如 表 5 所 示 。 

表 5 农事 行为 识别 研究 的 对 比 实验 效果 表 

Table 5 Comparative experimental results table of agricultural 


activity recognition research 


模型 mAP@0.5/% 
C3D 78.78 
I3D 71.89 
TSN 78.56 
双流 卷 积 神经 网 络 75.45 
Timesformer 79.47 
SlowFast-SMC-ECA 80.47 


图 9 是 原始 的 SlowFast 和 SlowFast-SMC-ECA 
这 2 种 模型 的 训练 损失 率 变化 曲线 。 图 9 中 横 坐 标 
为 迭代 的 次 数 ， 纵 坐标 为 损失 率 ， 可 以 看 出 Slow- 
Fast-SMC-ECA 模型 经 过 120 次 迭代 后 收敛 到 了 0.03 
旦 模型 基本 收 僵 ， 而 原始 的 SlowFast 模 型 需要 经 过 
160 X Bg 35 AF BE SEA Me. MES 可 以 看 出 ， 本 
研究 方法 与 其 他 几 个 方法 进行 比较 ， 平 均 识 别 的 准 
确 率 最 高 。 由 此 可 知 ， 本 研究 的 方法 在 识别 效果 上 
优 于 其 他 方法 ， 并且 改进 后 的 模型 收敛 的 速度 更 
快 ， 效果 更 好 。 

4 ”结论 与 讨论 

为 了 能 够 准确 快速 地 识别 农事 行为 活动 ， 本 研 
究 提 出 了 一 种 改进 的 SlowEFast 农 事 活 动 行为 识别 算 
法 ， 主 要 结论 如 下 。 

D 自 建 了 一 个 关于 设施 黄瓜 的 农事 活动 行 》 
数据 集 ， 包 括 移 栽 、 浇 水 、 吊 草 、 整 校 和 采摘 这 5 
种 农事 活动 行为 。 

2) 为 解决 农事 活动 行为 动作 复杂 且 设 施 环境 
复杂 的 问题 ， 本 研究 在 原 模型 的 基础 上 进行 了 改 
进 ， 具 体 做 法 包括 在 Fast Pathway 中 结合 ACTION 
注意 力 机 制 和 残 差 块 ， 形 成 了 SMC-RES 残 差 网 络 , 
以 增强 对 农事 操作 信息 的 提取 ; 在 Slow Pathway 中 
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图 9 SlowFast-SMC-ECA 和 原 SlowFast 训 练 损 失 率 变化 
Fig.9 SlowFast-SMC-ECA and original SlowFast training loss 


rate changes 


引入 ECA 结构 ， 提 高 了 农业 人 员 位 置 、 大 小 等 空 
间 语 义 信 息 的 提取 ， 以 此 来 提高 农事 行为 识别 的 准 
确 性 。 

3) 为 解决 数据 集中 农事 行为 类 别 不 平衡 的 问 
题 ， 本 人 研究 设计 了 平衡 损失 函数 (Smoothing 
Loss)， 用 于 保证 对 于 低频 农事 行为 的 充分 训练 及 
防止 对 于 高 频 农事 行为 的 过 拟 合 。 

经 过 实验 ，SlowFast-SMC-ECA 模型 相 较 于 原 
始 网 络 模型 提高 约 2% 的 mAP， 实 验证 实 了 SMC- 
Res 残 差 网 络 、ECA-Res 残 差 块 和 平衡 损失 函数 对 
SlowFast 模 型 的 改进 效果 和 识别 准确 性 的 提升 。 尽 
管 在 改进 过 程 中 仍 存在 误 检 现象 ， 同 时 由 于 Slow- 
Fast 模 型 参数 较 多 ， 难 以 租 入 监控 设备 中 ， 但 这 一 
研究 在 一 定 程度 上 推动 了 农事 行为 识别 的 进一步 研 
究 。 未 来 的 工作 将 继续 改进 模型 ， 使 其 更 加 准确 和 
轻 量 化 ， 以 便 在 记录 农业 人 员 从 事 农业 活动 的 同 
时 ， 有 效 记 录 农 事 行为 。 
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Abstract: 

[Objective] The identification of agricultural activities plays a crucial role for greenhouse vegetables production, particularly in the pre- 
cise management of cucumber cultivation. By monitoring and analyzing the timing and procedures of agricultural operations, effective 
guidance can be provided for agricultural production, leading to increased crop yield and quality. However, in practical applications, 
the recognition of agricultural activities in cucumber cultivation faces significant challenges. The complex and ever-changing growing 
environment of cucumbers, including dense foliage and internal facility structures that may obstruct visibility, poses difficulties in rec- 
ognizing agricultural activities. Additionally, agricultural tasks involve various stages such as planting, irrigation, fertilization, and 
pruning, each with specific operational intricacies and skill requirements. This requires the recognition system to accurately capture 
the characteristics of various complex movements to ensure the accuracy and reliability of the entire recognition process. To address 
the complex challenges, an innovative algorithm: SlowFast-SMC-ECA (SlowFast-Spatio-Temporal Excitation, Channel Excitation, 
Motion Excitation-Efficient Channel Attention) was proposed for the recognition of agricultural activity behaviors in cucumber culti- 
vation within facilities. 

[Methods] This algorithm represents a significant enhancement to the traditional SlowFast model, with the goal of more accurately 
capturing hand motion features and crucial dynamic information in agricultural activities. The fundamental concept of the SlowFast 
model involved processing video streams through two distinct pathways: the Slow Pathway concentrated on capturing spatial detail in- 
formation, while the Fast Pathway emphasized capturing temporal changes in rapid movements. To further improve information ex- 
change between the Slow and Fast pathways, lateral connections were incorporated at each stage. Building upon this foundation, the 
study introduced innovative enhancements to both pathways, improving the overall performance of the model. In the Fast Pathway, a 
multi-path residual network (SMC) concept was introduced, incorporating convolutional layers between different channels to strength- 
en temporal interconnectivity. This design enabled the algorithm to sensitively detect subtle temporal variations in rapid movements, 
thereby enhancing the recognition capability for swift agricultural actions. Meanwhile, in the Slow Pathway, the traditional residual 
block was replaced with the ECA-Res structure, integrating an effective channel attention mechanism (ECA) to improve the model's 
capacity to capture channel information. The adaptive adjustment of channel weights by the ECA-Res structure enriched feature ex- 
pression and differentiation, enhancing the model's understanding and grasp of key spatial information in agricultural activities. Fur- 
thermore, to address the challenge of class imbalance in practical scenarios, a balanced loss function (Smoothing Loss) was devel- 
oped. By introducing regularization coefficients, this loss function could automatically adjust the weights of different categories dur- 
ing training, effectively mitigating the impact of class imbalance and ensuring improved recognition performance across all categories. 
[Results and Discussions] The experimental results significantly demonstrated the outstanding performance of the improved SlowFast- 
SMC-ECA model on a specially constructed agricultural activity dataset. Specifically, the model achieved an average recognition accu- 
racy of 80.47%, representing an improvement of approximately 3.5% compared to the original SlowFast model. This achievement 
highlighted the effectiveness of the proposed improvements. Further ablation studies revealed that replacing traditional residual blocks 
with the multi-path residual network (SMC) and ECA-Res structures in the second and third stages of the SlowFast model leads to su- 
perior results. This highlighted that the improvements made to the Fast Pathway and Slow Pathway played a crucial role in enhancing 
the model's ability to capture details of agricultural activities. Additional ablation studies also confirmed the significant impact of these 
two improvements on improving the accuracy of agricultural activity recognition. Compared to existing algorithms, the improved 
SlowFast-SMC-ECA model exhibited a clear advantage in prediction accuracy. This not only validated the potential application of the 
proposed model in agricultural activity recognition but also provided strong technical support for the advancement of precision agri- 
culture technology. In conclusion, through careful refinement and optimization of the SlowFast model, it was successfully enhanced 
the model's recognition capabilities in complex agricultural scenarios, contributing valuable technological advancements to precision 
management in greenhouse cucumber cultivation. 

[Conclusions] By introducing advanced recognition technologies and intelligent algorithms, this study enhances the accuracy and effi- 
ciency of monitoring agricultural activities, assists farmers and agricultural experts in managing and guiding the operational processes 
within planting facilities more efficiently. Moreover, the research outcomes are of immense value in improving the traceability system 
for agricultural product quality and safety, ensuring the reliability and transparency of agricultural product quality. 


Key words: farming activity behaviour; SlowFast model; multi-path incentive residual network; ECA-Res; equilibrium loss function 
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